草庐IT

php - PHP 网页抓取

全部标签

javascript - 如何阻止机器人抓取我基于 AJAX 的 URL?

我在我的ASP.NETMVC3网站上有几个页面(这里的技术并不重要),我在这些页面上呈现了中的某些URL。页面上的标记,以便我的JavaScript(存储在外部文件中)可以对服务器执行AJAX调用。像这样:......$(function(){myapp.paths.someUrl='/blah/foo';//nothardcodedinreality,butN/Ahere});现在在服务器端,这些URL中的大多数都受到属性的保护,声明:a)它们只能通过AJAX访问(例如XmlHttpRequest)b)它们只能通过HTTPPOST访问(因为它返回JSON-安全性)问题是,出于某种原因

javascript - 使用 casper 进行实时聊天抓取(Youtube)。选择 polymer 元素的问题

我正在尝试使用casper从youtube实时聊天提要中抓取文本。我在选择正确的选择器时遇到问题。每条被推出的新消息都有许多嵌套元素和动态生成的元素。如何才能不断地拉动嵌套的somemessage当它们发生时?我目前似乎连一个都抓不到!这是我的测试代码:注意:您可以替换任何具有实时聊天提要的YouTube网址。constcasper=require("casper").create({viewportSize:{width:1080,height:724}});constua='Mozilla/5.0(WindowsNT6.1;Win64;x64;rv:47.0)Gecko/20100

javascript - Headless Chrome - 从加载的网页触发回调

有没有办法从加载的网页触发回调?我曾经在可能使用以下代码的地方使用PhantomJS:if(typeofwindow.callPhantom==='function'){window.callPhantom({data:'RenderPDF'});}在phantomjs脚本中:page.onCallback=function(data){/*callbackcode*/}; 最佳答案 您可以使用Runtimedomain中的评估函数在浏览器上评估javascript.下面的示例计算一个函数,该函数返回一个promise,该promi

javascript - 抓取需要您向下滚动的网站

我想在这里抓取这个网站:但是,它需要我向下滚动才能收集更多数据。我不知道如何使用Beautifulsoup或python向下滚动。这里有人知道怎么做吗?代码有点乱,但就在这里。importscrapyfromscrapy.selectorimportSelectorfromtesttest.itemsimportTesttestItemimportdatetimefromseleniumimportwebdriverfrombs4importBeautifulSoupfromHTMLParserimportHTMLParserimportreimporttimeclassMLStrip

javascript - 如何编写打印 css 以几乎与我们从 MS word 获得的方式相同的方式从网页获得打印?

如何使跨尺寸和跨浏览器兼容为World'smostusepapersizestogetprint打印CSS?A4,A3,Legaletc我们如何才能相同几乎相似格式化为我们的网站页面女士的话?什么是最佳实践获得格式的一致性从任何流行的打印页面浏览器?如何设置跨浏览器边距和字体大小与所有人的一致性像MSword一样?CSSfont-sizeunitem是最好的吗屏幕和打印?或者我们应该在打印css中使用pt或px?我和我sawfirsttimehere新的css属性body{width:7in}。我们可以设置不同的CSS(使用或没有JavaScript的帮助)彩色和黑白打印(如果我想在黑

javascript - 处理 javascript 的最简单的网络抓取工具是什么

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭6年前。Improvethisquestion我想制作一个能够登录网站的网络抓取应用程序(我能够使用twill(python)做到这一点),并且能够执行触发对其他页面的访问的JavaScript。我肯定更喜欢在python中使用一些东西,但我准备尝试一些新的东西。我已经安装了mechanize、watir、Hojocki等,但不确定这是否真的有帮助。

javascript - 测量网页的内存使用情况

我正在尝试使用Chrome开发人员工具中“时间轴”选项卡的内存部分来衡量我网站的内存使用情况。在不同的时间点,我点击了垃圾桶按钮来强制进行垃圾回收。问题是图形突然变软,并停止所有测量。最终,在我开始做其他事情后,它会再次开始测量,但我从未在图表上看到我点击GC按钮的确切位置/值。前两个下降斜坡在我按下垃圾收集按钮后立即开始,然后它们在我工作后连接到一个新的当前值。问题是:有没有办法强制此图保持或开始测量?或者,在JavaScript中是否有一种简单的方法来console.log当前内存使用值?作为一个相关问题,有没有办法指向图表上的一个点并查看该点的确切内存使用情况?

javascript - 我的 WebDriver 脚本可以从网页捕获事件吗?

我希望我的WebDriver脚本在网页触发特定事件后执行一些测试。这可能吗?在WebDriver脚本中会有某种事件监听器:document.addEventListener("hello",function(){console.log("doingtests");});这将在网页执行时运行:varev=newEvent("hello");document.dispatchEvent(ev);这是否可能反过来,这样我就可以从WebDriver向网页触发一个事件? 最佳答案 是的,可以收听一个事件。此示例监听文件输入的“更改”事件:fr

javascript - 如何在同一 NetBeans (7.3) 项目中同时调试 JavaScript 和 PHP?

在我的第一步中,我使用了这种不合理的方式,如下所述:创建一个HTML5项目来调试JavaScript代码。使用已经过测试的JS代码创建最终的PHP项目,我在其中调试服务器端。所以我想知道是否有更聪明的方法来做到这一点?例如:创建一个独特的项目并在nativeNetBeansJavaScript调试器和(PHP)XDebug之间切换. 最佳答案 对于Chrome中的JavaScript调试,你应该使用官方的NetBeansConnector扩展。下面是一个关于如何使用NetBeans+Chrome+NetBeansConnector调

Javascript:网页的PDF导出按钮

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的,因为它们往往会吸引自以为是的答案和垃圾邮件。相反,describetheproblem以及迄今为止为解决该问题所做的工作。关闭8年前。Improvethisquestion我想要任何指向我可以获得java脚本的指针或资源,该脚本允许我网站上的导出按钮将我的当前页面导出为pdf。